赞!科大讯飞这个“聪明”的大模型在多项评测中获得第一!
近日,新华社研究院中国企业发展研究中心、《麻省理工科技评论》中国分别发布大模型评测报告,讯飞星火认知大模型均以总分第一的成绩荣登国产主流大模型测评榜榜首。
根据新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》(简称《报告》),讯飞星火以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商能力和工具提效两个维度获得第一。
四大评测维度分别为基础能力、智商能力、情商能力、工具提效。在智商能力方面,课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对大模型进行考量,讯飞星火排名第一。在工作提效方面,课题组重点在工具提效(50%)和生成创新(50%)方面进行考量,讯飞星火以350分排名第一并遥遥领先,《报告》认为,讯飞星火认知大模型拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
无独有偶,《麻省理工科技评论》中国发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,以 81.5 分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。
大模型评测综合得分率
本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类。讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这6个一级大类中得分率排名第一,在此次评测中表现十分全面,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次“最聪明的理科生”。
据了解,科大讯飞为应对国产大模型的涌现,在讯飞星火认知大模型的立项、发布和迭代升级的各个阶段,都进行了紧锣密鼓的推进工作。5月6日,发布讯飞星火认知大模型及其在教育、办公、汽车、数字员工等领域的应用落地;6月9日,突破开放式问答,并在数学能力和多轮对话能力上迭代升级;8月15日,科大讯飞发布“讯飞星火认知大模型V2.0版本”,此次最大的升级在于代码能力和多模态能力的大幅提升;10月24日,将全面对标ChatGPT,中文超越、英文相当,明年上半年对标GPT-4。
科大讯飞上海总部是科大讯飞的区域总部之一,于2021年正式入驻位于长宁临空园区的中山国际广场。上海总部围绕1+X战略布局,深化“1”个科大讯飞上海人工智能研究院和“X”个创新业务场景,助力上海城市数字化转型。其中,讯飞上海人工智能研究院重点聚焦多语种核心技术研发。目前上海研究院多语种技术已覆盖全球60种语言语音合成、69种语言语音识别和168种语言机器翻译,覆盖全球50亿人口,成功解决华为手机等产品在海外市场因语音交互卡脖子的问题。
猜你喜欢
凝聚新力量!长宁区以新兴领域党建助力“四力四城”新发展 | 凝聚30年长宁首款“文明微信小游戏”今天上线!“宁宁”亲测挑战有惊喜哦~本周五,长宁这里有一场“专场招聘会”上海首家“弄堂美术馆”在长宁诞生了!健身运动区、种植认养区、解忧杂货铺…长宁将对这个“居民综合体”改造升级!
综合自新华社、麻省理工科技评论、科大讯飞
图片自新华社、麻省理工科技评论、科大讯飞
整理:毛奕云
编辑:王 博、程 前(见习)
责编:李晶莹
*转载请注明来源于“上海长宁”
喜欢就点个“赞”
欢迎留言评论和“宁宁”互动
再送我一朵“在看”的小花吧~